Карань Анна
студентка факультета биоинженерии и бионформатики

EMBOSS: пакет программ для анализа последовательностей

Задание 1

В этом задании необходимо освоить несколько команд пакета, предоставить исходные данные и результат.
1) C использованием команды seqret нужно получать единый fasta файл, соединенный из нескольких последовательностей.
Имена интересующих файлов

seqret @genome.txt seqret_1.fasta

Файл со всеми последовательностями
2) C использованием команды seqretsplit необходимо разделить один файл с несколькими последовательностями

seqretsplit seqret_1.fasta -auto

Полученные файлы:x65923, x65924, x65925, x65926, x65927.
3) С помощью команды seqret здесь необходимо из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.
Последовательность хромосомы .

seqret @cod.txt cod_arab.fasta

В файле написаны границы кодирующих областей. В результаты получен следующий файл.
4) С помощью команды transeq здесь необходимо транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода.
Одна из последовательностей, полученной во 2 пункте, была транслирована с помощью следующей команды.

transeq x65923.fasta x65923.pep -table 0

В данной случае использовалась стандартная таблшица генетического кода (-table 0). Получен следующий файл: x65923.pep
5) C помощью команды transeq транслировать данную нуклеотидную последовательность в шести рамках.
Для анализа был использован тот же файл, что и 4 пункте.

transeq x65923.fasta x65923.pep -table 0 -frame 6

С помощью вышеописанной команды был получен файл x65923_6.pep с трнасляциями исходного по всем 6 рамкам.
6) C помощью команды seqret перевести выравнивание из fasta формата в формат .msf.
Выравнивание в формате fasta

seqret allign.fasta msf::allign.msf

Полученное выравнивание в формате msf
7) C помощью команды infoalign необходимо выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными.

infoalign allign.msf -refseq 2 -only -idcount -name stdout

Ниже показан скрин выходного потока после применения команды

8) С помощью команды featcopy необходимо перевести аннотации особенностей в записи формата .gb в табличный формат .gff. Использовался файл.

featcopy sequence1.gb sequence1.gff

С помощью вышеописанной команды был получен файл sequence1.gff
9) С помощью команды extractfeat из данного файла с хромосомой в формате .gb необходимо получить fasta файл с кодирующими последовательностями.
Была взята следующая последовательность хромосомы

extractfeat sequence1.gb ex_9.fasta -type CDS -describe product

В результате применения этой команды получен выходной файл
10) С помощью команды shuffle перемешать буквы в данной нуклеотидной последовательности. Была взята следующая последовательность, часть хромосомы Saccharomyces cerevisiae.

shuffle -o ex_10.fasta -n 1 random.fasta

В результате был получен файл.
Если проверить с помощью blastn число "достоверных" находок, то обнаруживается, что таковых нет. (E-value больше 0,1 везде) (Рис.1.)

Рис.1. Находки blastn по перемешанной последовательность

11) С помощью команды cusp найти частоты кодонов в данных кодирующих последовательностях. Для анализа использовался файл, полученный в результате выполнения 9 пункта.

cusp ex_9.fasta ex_11.fasta

В результате выполнения этой команды был получен следующий файл
12) С помощью команды compseq необходимо найти частоты динуклеотидов в данной нуклеотидной последовательности и сравнить их с ожидаемыми.
Файл для анализа тот же, что и в 10 пункте.

compseq random.fasta ex_12.fasta -word 2

В результате этой команды получен файл с частотами динуклеотидов в 3-ем столбце и отношением ожидаемых частот к наблюдаемым в 5-ом.
13)C помощью команды tranalign необходимо выровнять кодирующие последовательности соответственно выравниванию белков - их продуктов. С помощью программы Mega7 было сделано выравнивание для белков (ну так быстрее, в моем случае).
На вход подвались последовательности нуклеотидов и белковое выравнивание.

tranalign all.fasta protein_align.fas ex_13.fasta -table 0

В итоге был получен файл с выравниванием.

Задание 2а

В этом задании для двух геномов необходимо построить карту локального сходства и опишите крупные эволюционные события на пути от общего предка.
Для этого я отметила галочкой Align two or more sequences в интерфейсе запуска BLAST и ввела в поля последовательности геномов двух сравниваемых организмов. Сравнивались две археи - Halobacterium salinarum R1 и Halobacterium sp. JI20-1. Для них была получена карта локального сходства, изображенная на Рис.2.

Рис.2. Колонии Halobacterium salinarum, растущие на чашки Петри с добавлением соли

Данные организмы живут в достаточно экстремальных условиях, как и многие археи. Это позволяет предположить у них быструю эволюцию генома и значительное число перестроек.
Последовательность Halobacterium salinarum R1, последовательность Halobacterium sp. JI20-1

Рис.3. Карта локального сходства для Halobacterium salinarum R1 и Halobacterium sp. JI20-1

И на первый взгляд видно, что достаточно много участков лежат на главной диагонали, так что геномы достаточно гомологичный, чтобы имело смысл их сравнивать по картам локального сходства.

Рис.4. Карта локального сходства для Halobacterium salinarum R1 и Halobacterium sp. JI20-1 c разметкой описываемых событий

Таблица 1. Характеристики выдачи blast для Halobacterium salinarum R1 и Halobacterium sp. JI20-1
Query coverIdentE-value
55%82%0.0

На Рис.4. отмечены некоторые события, отражающие перестройки генома, произошедшие в процессе индивидульной эволюции этих бактерий. Видна тенденция к инверсиям (крупных их здесь не меньше 8), а также к последующим обратным инверсиям. Событие по номером 4 - типичная инверсия (красными стрелками на отмечены противоположные направления участков 2-х геномов). Под номером 1 2 события. Сначала произошла одна инверсия ( её можно определить по 2-м участкам противоположной направленности), а потом инверсия участка первой инверсии (участок той же направленности, что и диагональ, но со смещением). События под номерами 2 и 3 можно интерпретировать по-разному. Либо так, что 2 - это транслокация, либо как то что все событие 3 - это две последовательные инверсии (просто более старые, чем 1), это, мне кажется, более реалистичное объяснение.
Однако, здесь нет вставок, а инверсий много, и они очень красивые, поэтому я решила сделать сравнение еще двух других геномов. Это Streptococcus pyogenes HKU488 и Streptococcus pyogenes SF370. На Рис.5. их карта локального сходства.
Последовательность Streptococcus pyogenes M1 GAS, последовательность Streptococcus pyogenes HKU488.

Рис.5. Карта локального сходства для Streptococcus pyogenes HKU488 и Streptococcus pyogenes M1 GAS c разметкой описываемых событий

Таблица 2. Характеристики выдачи blast для Streptococcus pyogenes HKU488 и Streptococcus pyogenes M1 GAS
Query coverIdentE-value
92%99%0.0

Событие 1 можно интерпретировать по-разному, однако мне наиболее вероятным кажется такое объяснение. Сначала произошла очень крупная инверсия (её остатки как раз и есть участки под номерами 1), а потом произошла инверсия меньше. Это достаточно давние события, поэтому после последней меньшей инверсии на этом участке произошло еще несколько вставок/делеций.
Событие 3 и аналогичные ему - это вставка в геноме по вертикальной оси или делеция во втором. Событие 2 и аналогичные ему - это вставка в геноме по горизонтальной оси или делеция во втором.

Задание 2а(*)

В дополнительном задании необходимо найти источник одной крупной вставки. Есть дерево 3-х видов стрептококков: tree.pdf
На Рис. 6 отдельно ветка для исследуемых видов.

Рис.6. Отдельная ветвь дерева с интересуемыми штаммами

Попробуем сравнить 4 штамма - M1_476 (как близкий к HKU488), HKU499, AP1 (как близкий к M1 GAS), M1 GAS.
Последовательность Streptococcus pyogenes M1_476, последовательность Streptococcus pyogenes AP1.

Рис.7. По вертикальной оси, как и на Рис.5 HKU488, а по вертикальной M1_GAS

Рис.8. По вертикальной оси штамм M1_476, по горизонтальной HKU488

Как видно из Рис.8, т.е. сравнения HKU488 с близким штаммом, в этом случае отмечается 2 крупные вставки у HKU488 (или делеции у M1_476), идентичные таковым на Рис.7.. Это заставляет нас склоняться к к варианту 2-х вставок у HKU488, чем к двум одинаковым делециям у не таких уж родственных штаммов.

Задание 2b

В этом задании необходимо построить нуклеотидный пангеном для 3-4 геномов близкородственных бактерий или архей.
Были взяты Streptococcus pyogenes MTB313,Streptococcus pyogenes MEW123, Streptococcus pyogenes Manfredo, Streptococcus pyogenes M28PF1.

1. npge -g npge.conf
2. npge Prepare
3. npge Examine
4. npge MakePangenome > log
5. npge PostProcessing

Выше показаны использованный команды. Сначала был создан файл genomes.tsv, с информацией откуда брать последовательности геномных ДНК и аннотации генов. С помощью 1-ой команды был создан файл npge.conf с параметрами, где можно их менять для усовершенствования работы следующих команд. Далее командой 2 были скачаны и переименованы геномные ДНК. 3-я команда создает папку examine с интересующим нас файлом identity_recommended.txt, в соответствиии с которым изменяется MIN_IDENTITY, в моем случае он предлагает 0,886, и именно такое значение я и поставлю в файле npge.conf. При помощи 4-ой команды был получен нуклеотидный пангеном в файле pangenome.bs, а протокол выполнения сохранен в файле log.После выполнения 5 команды, было получено много файлов с разной аналитической информацией. Далее было скачан gnpge с официального сайта и в папку со всеми результатами скопирован файл gnpge.exe и затем открыт, это визуализация пангенома.

Описание синтеничных участков (g-блоков)

Список глобальных блоков - синтений находится в файле blocks.gbi, а п оследовательность глобальных блоков в каждом геноме - в файле global-blocks/blocks.blocks blocks.blocks. Для удобства работы этот файл был транспортирован в Excel, и были выкинуты строчки, не содержащие g-блоков.

Рис.9 Таблица выравнивания g-блоков

g-blocks.xlsx
- таблица Excel.
Выше приведена таблица Excel с g-блоками, раскрашенными по описанным далее принципам.
Всего 16 g-блоков, только у 7 из них положение в 4-х геномах совпадает, а ведь это бактерии одного вида, консервативные блоки отмечены рыжим цветов. Желтым цветом отмечены отмечены 2 группы блоков у всех геномов, так что у 2-х штаммов (M28PF1 и MEW123) их положение совпадает и находятся они на двух концах генома, у Manfredo 2 блока из 6 (по одному блоку с 2-х концов) изменили свое положение. А e MTB313 блоки поменяли свою последовательность на противоположную, т.е. те, что у большинства в начале, у этого штамма в конце и в обратной последовательности. На этой основе можно предположить изначально огромную инверсию, а потом реверсию меньшего участка внутри инверсии (такие же явления описывались для других Streptococcus pyogenes в прошлом задании. Однако у MTB313 и внутри этой меньшей последней инверсии происходили изменения. Зеленым отмечены 2 блока, одинаково локализованные у M28PF1 и MEW123, но вместе в другом месте у MTB313, можно предположить траснлокацию этих двух блоков у MTB313 вместе. (у Manfredo они совсем по-другому расположены и разделены).
Уже на данном этапе можно предположить большую близость M28PF1 и MEW123, так как у них все блоки расположены одинаково.

Рис.10. Фрагмент выравнивания g-блоков из визуализатора gnpge

На Рис.10. изображен фрагмент выравнивания, однако, не вижу смысла в каких-либо комментариях, потому что полное выравнивание аналогично такому в Excel.

Описание ядра пангенома (объединение s-блоков)

Информация содержится в файле pangenome.info. В данном файле s-блоки - это "Exact stem blocks".
- Число блоков - 139
- Размер ядра - 74,91% (процент входных последовательностей, вошедших в s-блоки)
- Сходство геномов - 0,984675 (идентичность объединенных s-блоков

Описание повторов (r-блоков)

Рис.11 Выравнивание r20x237, полученное в gnpge, но визуализованное в Jalview (просто не поняла, как картинку из gnpge сохранять)

Данный повтор встречается у двух штаммов: MEW123 (13 раз) и M28PF1 (7 раз).

Таблица 3. Характеристики блока r20x237
Число повторенийДлинаИдентичность%GCЧисло генов
20 (13 у MEW123, 7 у M28PF1) 23799,15%44,1520 (т.е. по одному в каждом повторе)

Gnpge определил ген в этом повторе: CDS ABO05_02780_ABO05_02780 XRE family transcriptional regulator (M28PF1) и CDS AWM59_02820_AWM59_02820 XRE family transcriptional regulator (MEW123).
Поиск Blast по этому названию выдает огромное количество результатов для разных организмов, т.е. это очень распространенный и консерватинвый транскрипционный фактор, только у самих Streptococcus pyogenes 4570 результатов.

Рис.12. Пример стуктуры XRE family transcriptional regulator

На Рис.12 показаны типичная стуктура XRE family transcriptional regulator.

Рис.13. Таблица с примерами транскрипционных регуляторов из XRE family [1]

Рис.14. Таблица с характеристиками YqaE, транскрипционного регулятора из XRE family [2]

На Рис.14. приведена таблица для транскрипционного регулятора YqaE, он является отрицательным репрессором гена sigK - фаговый элемент у Bacillus subtilis [3].
По тому, что он регулирует у Streptococcus я литературы не нашла.

Пример крупной делеции (делеция - в геномах, не вошедших в h-блок

Например, делеция h3x8372.

Таблица 4. Характеристики блока h3x8372, крупной делеции у Manfredo
ДлинаИдентичность%GCЧисло генов
837299,17%36,7327 (т.е. в среднем 9 на каждый штамм)

Gnpge определил по гену для всех 3-х видов: CDS ABO05_02970_ABO05_02970 RNA helicase (M28PF1) (2649 bp), CDS AWM59_03005_AWM59_03005 CRISPR-associated helicase Cas3 (MEW123) (2649 bp), CDS MTB313_1308 valyl-tRNA synthetase (MTB313) (2649 bp).
Эта делеция у Manfredo локализована у g-блоке g4x183859, который расположен в одном и том же месте в геномах всех 3-х штаммов.

Пример последовательности имеющейся только в одном геноме

Последовательности, присутствующие только в одном геноме - u-блоки, например u1x621, который есть только у штамма M28PF1.
u1x621.txt


©Карань Анна, 2015